Realizing when a model is right for a wrong reason is not trivial and requires a significant effort by model developers. In some cases, an input salience method, which highlights the most important parts of the input, may reveal problematic reasoning. But scrutinizing highlights over many data instances is tedious and often infeasible. Furthermore, analyzing examples in isolation does not reveal general patterns in the data or in the model's behavior. In this paper we aim to address these issues and go from understanding single examples to understanding entire datasets and models. The methodology we propose is based on aggregated salience maps. Using this methodology we address multiple distinct but common model developer needs by showing how problematic data and model behavior can be identified -- a necessary first step for improving the model.
translated by 谷歌翻译
当向人类解释AI行为时,人类的解释如何理解传达的信息,并且它是否与解释试图交流的内容相匹配?我们什么时候可以说解释正在解释某件事?我们旨在通过利用有关人类用来理解行为的民间概念的思维理论来提供答案。我们建立了人类言论的社会归因框架,该框架描述了解释的功能:人类从他们那里理解的信息。具体而言,有效的解释应产生连贯的心理模型(传达有关其他对比案例的信息),完整(传达对对比案例的明确因果叙事,代表原因,影响的表示和外部原因)以及互动(表面和解决矛盾,通过审讯到概括属性)。我们证明,许多XAI机制可以映射到民间行为概念。这使我们能够发现它们的故障模式,以防止当前方法有效解释,以及启用连贯解释所必需的。
translated by 谷歌翻译
特征归因A.K.A.将重要性分配给特征的输入突出性方法丰富,但可能对同一输入上的相同模型产生令人惊讶的不同结果。虽然预期差异是假设存在的不同意义的定义,但大多数方法要求提供与模型预测最相关的特征的忠实归属和点。对忠诚评估的现有工作并不是决定性的,并且没有提供明确的答案,以及如何比较不同的方法。专注于文本分类和模型调试方案,我们的主要贡献是忠实评估的协议,该协议是利用部分合成数据来获得特征重要性排名的基础事实。在该协议之后,我们对四个标准Parience方法进行了深入的分析,在一系列数据集和LSTM模型的数据集和快捷方式上进行了深入的分析,并证明了一些最受欢迎的方法配置即使对于最简单的快捷方式,也可以提供较差的结果。我们建议使用每个新任务和模型组合的协议,以找到识别快捷方式的最佳方法。
translated by 谷歌翻译
多目标优化(MOO)旨在同时优化多个冲突的目标,并在机器学习中发现了重要的应用,例如最大程度地减少分类损失和差异,以在处理不同的人群方面以保持公平。最佳性,进一步优化一个目标至少将至少损害另一个目标,而决策者需要全面探索多个Optima(称为Pareto Front),以确定一个最终解决方案。我们解决了寻找帕累托阵线的效率。首先,使用随机多偏差下降(SMGD)从头开始寻找前部,对于大型神经网络和数据集很昂贵。我们建议基于预测器 - 校正方法来探索帕累托阵线作为一些初始Optima的歧管。其次,对于每个探索步骤,预测变量求解一个大规模的线性系统,该系统在模型参数数量中二次缩放,并且需要一个反向传播来评估求解器的二阶Hessian-vector产品。我们提出了一个只能线性缩放的高斯 - 纽顿近似,并且只需要每次迭代的一阶内产物。这还允许在大约求解线性系统时,在微小和共轭梯度方法之间进行选择。这些创新使大型网络成为可能的预测器 - 校准。关于多目标(公平和准确性)错误信息检测任务的实验表明,1)预测器 - 矫正器方法可以在更少的时间内找到比或与SMGD更好或与SMGD相似的方法; 2)提出的一阶方法不会损害二阶方法识别的帕累托前沿的质量,同时进一步缩短了运行时间。
translated by 谷歌翻译
自动评估摘要的连贯性具有重要意义,既可以实现成本效益的摘要评估,又可以通过选择高分候选候选摘要来提高连贯性。尽管已经提出了许多不同的方法来建模摘要相干性,但通常使用不同的数据集和指标对其进行评估。这使得很难理解他们的相对性能,并确定朝着更好的摘要连贯建模的方法。在这项工作中,我们对各种方法进行了大规模研究,以进行均匀的竞争环境建模。此外,我们介绍了两项新的分析措施,即系统内相关性和偏置矩阵,它们有助于确定相干度量的偏见,并为系统级混杂因素提供鲁棒性。尽管当前可用的自动连贯性措施都无法为所有评估指标的系统摘要分配可靠的连贯分数,但对自我监督任务进行了微调的大规模语言模型显示出令人鼓舞的结果,只要微调会考虑在内他们需要在不同的摘要长度上概括。
translated by 谷歌翻译
由于COVID强烈影响呼吸系统,因此肺CT扫描可用于分析患者健康。我们引入了一个神经网络,用于预测肺损伤的严重程度和使用三维CT扫描检测感染。因此,我们将最新的Convnext模型调整为处理三维数据。此外,我们引入了专门调整的不同训练方法,以提高模型处理三维CT-DATA的能力。为了测试模型的性能,我们参加了第二COV19D严重性预测和感染检测的竞争。
translated by 谷歌翻译
近年来,以用户为中心的应用程序有所增长,这些应用程序需要在低数据制度中跨任务进行有效的知识转移。一个示例是个性化,通过学习少量属于特定用户的标记数据,可以调整一个预处理的系统。这种设置需要在低计算复杂性下高精度,因此准确性的帕累托前沿与适应性成本起着至关重要的作用。在本文中,我们将在几个摄影图像分类设置中推动此帕累托前沿,并具有两个关键的贡献:(i)一个称为上下文挤压和兴奋(案例)的新型自适应块,该块在新任务上调整了预处理的神经网络,以显着通过用户数据(上下文)的单个正向通过,以及(ii)基于称为大写的坐标培训协议(II)的混合训练协议,以提高性能,该协议利用了元训练的情况块和微调例程,以进行有效的适应。大写在VTAB+MD的26个数据集和充满挑战的现实世界个性化基准(Orbit)上,相对于元学习者的新最先进的准确性(轨道),从而通过领先的微调方法缩小了差距自适应成本较低的数量级。
translated by 谷歌翻译
最先进的3D感知生成模型依赖于基于坐标的MLP来参数化3D辐射场。在证明令人印象深刻的结果的同时,请查询每个沿每个射线样品的MLP,都会导致渲染缓慢。因此,现有方法通常会呈现低分辨率特征图,并通过UPSMPLING网络处理以获取最终图像。尽管有效,神经渲染通常纠缠于观点和内容,从而改变摄像头会导致几何或外观的不必要变化。在基于体素的新型视图合成中的最新结果中,我们研究了本文中稀疏体素电网表示的快速和3D一致生成建模的实用性。我们的结果表明,当将稀疏体素电网与渐进式生长,自由空间修剪和适当的正则化结合时,单层MLP确实可以被3D卷积代替。为了获得场景的紧凑表示并允许缩放到更高的体素分辨率,我们的模型将前景对象(以3D模型)从背景(以2D模型建模)中。与现有方法相反,我们的方法仅需要单个正向通行证来生成完整的3D场景。因此,它允许从任意观点呈现有效渲染,同时以高视觉保真度产生3D一致的结果。
translated by 谷歌翻译
我们以已知的奖励和未知的约束来研究顺序决策,这是由约束代表昂贵评估人类偏好(例如安全舒适的驾驶行为)的情况所激发的。我们将互动学习这些约束作为新的线性匪徒问题的挑战正式化,我们称之为约束的线性最佳臂识别。为了解决这个问题,我们提出了自适应约束学习(ACOL)算法。我们为约束线性最佳臂识别提供了一个依赖实例的下限,并表明Acol的样品复杂性与最坏情况下的下限匹配。在平均情况下,ACOL的样品复杂性结合仍然比简单方法的边界更紧密。在合成实验中,ACOL与Oracle溶液相同,并且表现优于一系列基准。作为应用程序,我们考虑学习限制,以代表驾驶模拟中的人类偏好。对于此应用,ACOL比替代方案要高得多。此外,我们发现学习偏好作为约束对驾驶场景的变化比直接编码奖励函数中的偏好更强大。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译